উদাহরণসহ Text এবং Time Feature Management

উদাহরণসহ Text এবং Time Feature Management

Text এবং Time ফিচার মেশিন লার্নিং এবং ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ। এখানে আমি টেক্সট এবং টাইম ফিচার ব্যবস্থাপনার জন্য কিছু কৌশল এবং উদাহরণ উপস্থাপন করছি।


১. Text Feature Management

Text Feature Management প্রক্রিয়ায় টেক্সট ডেটাকে প্রক্রিয়া করে, যাতে এটি মডেল প্রশিক্ষণের জন্য প্রস্তুত হয়। নীচে টেক্সট ফিচার ব্যবস্থাপনার একটি উদাহরণ দেওয়া হলো।

উদাহরণ: Text Feature Management

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
import nltk

# nltk থেকে স্টপওয়ার্ড ইনস্টল করা
nltk.download('stopwords')

# উদাহরণ ডেটা তৈরি
data = {
    'reviews': [
        'This product is great!',
        'I did not like this item.',
        'Amazing quality and fantastic service.',
        'Worst experience ever.',
        'Would buy again for sure.'
    ]
}

df = pd.DataFrame(data)

# টেক্সট প্রিপ্রসেসিং
# টেক্সটকে ছোট অক্ষরে রূপান্তর করা
df['reviews'] = df['reviews'].str.lower()

# স্টপওয়ার্ড সরানো
stop_words = set(stopwords.words('english'))
df['reviews'] = df['reviews'].apply(lambda x: ' '.join([word for word in x.split() if word not in stop_words]))

print("Preprocessed Text:")
print(df)

# TF-IDF ভেক্টরাইজেশন
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['reviews'])

# ভেক্টরাইজড ডেটা
print("\nTF-IDF Matrix:")
print(X.toarray())

২. Time Feature Management

Time Feature Management টাইমস্ট্যাম্প বা সময়ের উপর ভিত্তি করে তথ্য বিশ্লেষণের জন্য প্রয়োজনীয়। নীচে টাইম ফিচার ব্যবস্থাপনার একটি উদাহরণ দেওয়া হলো।

উদাহরণ: Time Feature Management

import pandas as pd

# টাইম সিরিজ ডেটা তৈরি
date_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D')
df = pd.DataFrame(date_rng, columns=['date'])
df['data'] = [100, 150, 200, 250, 300, 350, 400, 450, 500, 550]

print("Original Data:")
print(df)

# সময় ফিচার বের করা
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['weekday'] = df['date'].dt.weekday

print("\nData with Time Features:")
print(df)

# ল্যাগ ফিচার তৈরি করা
df['lag_1'] = df['data'].shift(1)

# চলমান গড় তৈরি করা
df['rolling_mean'] = df['data'].rolling(window=3).mean()

print("\nData with Lag and Rolling Mean:")
print(df)

সারসংক্ষেপ

Text এবং Time ফিচার ব্যবস্থাপনা মডেল প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ। উপরের উদাহরণগুলোতে টেক্সট ফিচার প্রিপ্রসেসিং এবং টাইম ফিচার থেকে নতুন বৈশিষ্ট্য তৈরি করার প্রক্রিয়া দেখানো হয়েছে। টেক্সট ডেটাকে প্রস্তুত করার জন্য প্রিপ্রসেসিং কৌশলগুলি ব্যবহার করা হয়েছে, যেমন টোকেনাইজেশন, স্টপওয়ার্ড সরানো, এবং TF-IDF ভেক্টরাইজেশন। টাইম ফিচারের জন্য, টাইমস্ট্যাম্প থেকে বিভিন্ন উপাদান বের করা হয়েছে এবং ল্যাগ ও চলমান গড় তৈরি করা হয়েছে, যা ভবিষ্যদ্বাণী এবং বিশ্লেষণে সহায়ক।

Content added By

আরও দেখুন...

Promotion